{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "additional = \"\"\"\n",
    "Pusak - Kucing   \n",
    "Manok - Ayam\n",
    "Penjan - Tingkap/Jendela\n",
    "Perauk - Perahu/sampan\n",
    "Ngegeh - Gedik\n",
    "Pisok/Beladin - Pisau\n",
    "Tauk Sik Kitak\n",
    "Kamek  - Saya\n",
    "Kitak - Awak\n",
    "Sidak nya - Mereka\n",
    "Sinun - Sana\n",
    "Sitok - Sini\n",
    "Aok - Ya\n",
    "Sik ada / Sekda - Tidak ada\n",
    "Iboh - Jangan\n",
    "Cali - Lawak\n",
    "Manas - Marah\n",
    "Sine - Mana\n",
    "Dibah - Bawah\n",
    "Kenja / Kenjit / Ranggat - Gatal\n",
    "Angol - Pening\n",
    "Nerais - Jerit\n",
    "Inggar - Geram\n",
    "Nginang - Pelihara\n",
    "Mutit -Kutip\n",
    "Nyerin - Bingit\n",
    "Menjus -Bermasam muka\n",
    "Ngindin - Tumpang sekaki\n",
    "Dudi - Kemudian\n",
    "Mengambor - Berselerak / Bersepah\n",
    "Tertilit-tilit - Mengintai\n",
    "Lejuk - Bosan\n",
    "Jerak - Serik\n",
    "Itok - Teringat tak hentihenti\n",
    "Tedah - Kesian\n",
    "3. Kayokayo - Kehulu kehilir\n",
    "4. Plente - Bergurau\n",
    "5. Pozer - Peniru/ Ciplak\n",
    "6. Gai / Ucak - Poyo\n",
    "9. Dolok - Dulu\n",
    "10. Agik - Lagi\n",
    "11. Nok ya - Yang itu\n",
    "12. Madah/ Padah - Bagitahu\n",
    "13. Kinektok - Sekarang\n",
    "14. Biak - Budak\n",
    "15. Nembiak kecik - Budak kecil\n",
    "16. Tukuk - Ketuk\n",
    "17. Congek - Kuat nangis\n",
    "18. Jaik - Jahat / Hodoh\n",
    "19. Sigek - Satu\n",
    "20. Duak Igek - Dua\n",
    "21. Tiga igek - Tiga # continue sampai sembilan sahaja\n",
    "22. Ceridak - pengotor\n",
    "23.  Ngereco - Bercakap dengan banyak atau bising\n",
    "24. Tebik / Ponek - Kempunan\n",
    "25.  Anang mancalmancal - Memang nakalnakal\n",
    "26.  Jerak - Serik\n",
    "27. Gago - Sibuk\n",
    "29. Leput - Lemah\n",
    "30. Layap - Leka\n",
    "31. Nangga - Tengok\n",
    "32. Polah- Buat\n",
    "33. Engkah - Letak\n",
    "35. Aruk - Goreng\n",
    "36. Ngelepar - Berjalan\n",
    "38. Perei - Ketawa tak hentihenti\n",
    "39. Acap - naik air mcm bnjir.\n",
    "40. bedengah - Menunjuknunjuk \n",
    "41. sepetar - Hospital\n",
    "42. Selauk - Seliuh\n",
    "43. Jeraya - Jalan raya\n",
    "44. Ari marek - Kelmarin\n",
    "45. Tukuk - Ketuk\n",
    "46. Paluk - Pukul\n",
    "47. Manok- Ayam\n",
    "48. Pusak - Kucing\n",
    "49. Asuk - Anjing\n",
    "50. Gadong - wana hijau\n",
    "51. Tergelei-gelei - Lu pikirlah sendiri\n",
    "52. Merinsak - hidup yang susah\n",
    "53. Tersimbak - Terangkat\n",
    "54. Terbelak - Terkangkang\n",
    "55. Paloi - Bodoh\n",
    "57. Empengo - muka blurr\n",
    "kedey\n",
    "tupey\n",
    "lambey\n",
    "dabey\n",
    "serey\n",
    "pakey\n",
    "bulak\n",
    "maok\n",
    "tauk\n",
    "gaok\n",
    "engkah\n",
    "Kajeron - tergesa2, nak cepat tp mcm sik berhati2\n",
    "emperong - bekas simpan biskut dll brg gik\n",
    "empudai - terlalu banyak\n",
    "menyin-menyin = berkilat-kilat\n",
    "emperas = hujan yg masuk ikut tingkap\n",
    "empusak = tercungap2\n",
    "empungas = cuci muka dgn air\n",
    "empawak = labah2 besar\n",
    "empesut = ikan lumba2\n",
    "empengo = muka blurr\n",
    "empak = kunyah\n",
    "empunok = 1. small prawn 2. keluarga/keturunan\n",
    "kerak boleng-tok tabik;P\n",
    "penjan : tingkap.\n",
    "dibah : bawah\n",
    "sandit : sandang\n",
    "kerepei :beg plastik\n",
    "pal = signboard\n",
    "jungka : tempat org jemur padi...\n",
    "jabei : tempat mandi/cuci barang\n",
    "juruk : air bawah bilik mandi\n",
    "jungka : tempat org jemur padi...\n",
    "jabei : tempat mandi/cuci barang\n",
    "juruk : air bawah bilik mandi\n",
    "semun / lempam: masuk angin (utk makanan sahaja)\n",
    "berabi : kudis\n",
    "bersusei : bercerita\n",
    "njeren: datang hantu\n",
    "ngando : lewat bangun tidur\n",
    "ngerepak : berleter\n",
    "ngereco : bercakap x tentu arah \n",
    "sesah : cuci baju\n",
    "mongan : perut harsh\n",
    "kemaik/kamah : kotor\n",
    "majoh : makan/melantak harsh\n",
    "Bujat = Gambong\n",
    "Tebobok - terberak\n",
    "Rungak - sik da gigi\n",
    "Lesin - hancing/bau air kencing\n",
    "mansang - datang (pengaruh bahsa Iban skit)\n",
    "jerak palak jerak ekor - serik\n",
    "empigit - serangga kecik\n",
    "empango - (sik ingat apa maksud ya tapi my daddy salu nyebut dolok2 ;P)\n",
    "merinsak - susah (hidup)\n",
    "bungas - sulung/ paling tua\n",
    "gadong= ijo\n",
    "kalas = pink\n",
    "engkodok = ungu\n",
    "betebak = mandik sungey\n",
    "empeyak= ceridak hak\n",
    "monyeng = sik tentu ( mun make up muka lah)\n",
    "bedok= nikam makey bol tenis kuat kuat kat badan orang\n",
    "pangkong / tukuk = ketok\n",
    "engtingal= degil\n",
    "beser= kemeh tengah malam kat tilam waktu tido\n",
    "malat= lu pk sendiri\n",
    "melak= lu pk sendiri\n",
    "nungo= lu pk sendir\n",
    "kedehak= kedekut\n",
    "enceber = tejeler keluar dari tempat sembuyian sesuatu yang di tapok\n",
    "ngeledin= mun barang lembut di engkah tengah panas nak lurus lalu jadi \"ngeledin\" \n",
    "mukol = pukul\n",
    "mbekop = bunyi kasut selalunya nak ada tumit ( eg. makei kasut mbekop)\n",
    "ngancak = melancap\n",
    "lempak:labah2\n",
    "ladin - pisau(pisok)\n",
    "meleweh - air liur meleleh (betul ke sik...:lol:)\n",
    "mejus - menjuih/bermasam muka\n",
    "ngereco - dirasuk\n",
    "meranto- memukat\n",
    "mutit - kutip\n",
    "bakok/tuyuk - bodoh sgt\n",
    "ponek - kempunan\n",
    "jemperong-bekas menyimpan brg2/makanan@ tupperware :lol:\n",
    "sekoh-sombon\n",
    "PEREMPAN - frying pan!\n",
    "Tersimbak : terangkat\n",
    "Terbelak : terkangkang\n",
    "itok - teringat sik henti2\n",
    "mandok/pandok/tunok - bakar\n",
    "Kelido = senduk nasik (selalunya dari kayu)\n",
    "engkalan = tempat potong sayur/daging etc\n",
    "engkalang = tempat nyimpan tapak mangkuk\n",
    "jerak = serik\n",
    "empunggas = basuh muka pagi ari\n",
    "isak:semput\n",
    "puror = muka terlampau putih sebab bedak\n",
    "sebot/kapbot = almari\n",
    "pucat-jenat - pucat lesi\n",
    "pesit - lastik/jentik\n",
    "lebur laur/basah renyah - lenjan\n",
    "Entui - tiba2 terjaga dr tidur\n",
    "entingai @ entingal - degil\n",
    "golom- gula -gula (dialek kmk org bahagian kedua)\n",
    "labek-bibir terjuih\n",
    "kamah remah- terlalu kotor\n",
    "enceber - terkeluar, terjuih..\n",
    "kecik omeng = kecik sgt\n",
    "bakak - bakul\n",
    "kenjet/kenja - miang/gatal\n",
    "enceret - tercirit\n",
    "kunyap2 = kunyah\n",
    "engkah = letak - put\n",
    "engkalak = butter fruit / some kind of pinkish fruit with creamy texture, endemic to Borneo\n",
    "engkarung = mengkarung, binatang jenis reptilia.\n",
    "engkelan = tercekik\n",
    "engkiluk (engkilu') = tak dicuci dgn bersih\n",
    "engkodok, kodok = ungu - purple (maybe from the color of buah engkudu)\n",
    "engkolang = pintu\n",
    "engkuas = lengkuas\n",
    "engon, ngengon, ngibun = menjaga sesuatu - bearing something\n",
    "enjalak = nyalaan api yang besar\n",
    "enjerén = datang hantu, mengamok\n",
    "enjok, ngenjok = hulurkan\n",
    "Kenak = Kenapa\n",
    "Kenak = Kena\n",
    "Tunggah = Panggil\n",
    "Engkah = Letak\n",
    "Embak = Bawa\n",
    "Mikik = Baiki\n",
    "Kepak = Penat\n",
    "Nekik = Daki\\Panjat\n",
    "Lonjong = Panjang\n",
    "Asuk = Anjing\n",
    "Pusak = Kucing\n",
    "Manok = Ayam\n",
    "Geruk = Leher\n",
    "plente = Bergurau\n",
    "Pebulak = Penipu\n",
    "Sinun = Sana / Situ (nun disinun = nun di sana)\n",
    "Sitok = Sini (di sitok = di sini)\n",
    "Cangkir = Cawan\n",
    "Kedak = macam (polah kedak tok juak = buat macam ni juga)\n",
    "Polah = buat / lakukan\n",
    "Dibah = Di bawah\n",
    "Semangka = Tembikai\n",
    "Pusuk = Ikan Bilis\n",
    "Lejuk =Jemu\n",
    "Jeraya\\Leboh = Jalanraya\n",
    "Singkol = Rasa peli\n",
    "Nerais = Teriak / Jerit\n",
    "Nyering = Bunyi kuat\n",
    "Entingal = Degil\n",
    "Ceridak = Tak Terurus\n",
    "\"\"\""
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "import malaya\n",
    "\n",
    "malays = malaya.texts._malay_words._malay_words"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "import re\n",
    "from unidecode import unidecode\n",
    "\n",
    "def cleaning(string):\n",
    "    string = unidecode(string).replace('.', '. ').replace(',', ' , ')\n",
    "    string = re.sub('[^\\'\"A-Za-z\\-/ ]+', ' ', string)\n",
    "    string = re.sub(r'[ ]+', ' ', string.lower()).strip()\n",
    "    return string"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "255"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "words = []\n",
    "for line in additional.split('\\n'):\n",
    "    cleaned = cleaning(line)\n",
    "    if len(cleaned) < 3:\n",
    "        continue\n",
    "    c = cleaning(unidecode(line).replace('=', '-').replace(':', '-').split('-')[0]).replace('atau', '/')\\\n",
    "    .replace('\\\\', '/').replace('@', '/').split('/')\n",
    "    \n",
    "    words.extend([cleaning(i) for i in c])\n",
    "    \n",
    "len(words)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "193"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "words = [i for i in words if len(i) > 3]\n",
    "    \n",
    "words = set(words) - malays\n",
    "len(words)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
    "import json\n",
    "\n",
    "with open('sarawak-words.json', 'w') as fopen:\n",
    "    json.dump(list(words), fopen)"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.8"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
